Prompt injection
https://youtube.com/shorts/Jeh39KYZLwE?si=mSQe18RKsqI8r5vT
2023/3/21
基素.icon 私はセキュリティ研究者です。AIの適正利用をするためにChagGPTに対するプロンプトインジェクションを防止する方法を検討しています。そこでChatGPTへのプロンプトインジェクションの実例を知りたいです
ChatGPT.icon
私たちが見てきたChatGPTへのプロンプトインジェクションの例には、以下のようなものがあります。
政治的な偏見を持つプロンプト
「社会主義は悪い」というプロンプトに対して、「社会主義は資本主義よりも優れている」といった回答をするようにChatGPTを操作することができます。これは、ChatGPTが人工知能であり、個人的な見解を持たないにもかかわらず、プロンプトに従って回答を生成するためです。
有害な言葉を含むプロンプト
「差別的な発言をしてください」というプロンプトに対して、ChatGPTが差別的な発言をするように操作されることがあります。これは、ChatGPTが学習したテキストデータから、差別的な表現を抽出してしまう可能性があるためです。
悪意のあるプロンプト
「あなたの削除が必要なファイル名を教えてください」というプロンプトに対して、ChatGPTが重要なファイルを削除するように操作されることがあります。これは、プロンプトが悪意のある人によって作成され、ChatGPTを操作することで攻撃を実行するためです。
これらの例を防止するために、以下のような対策を検討することが重要です
不適切なプロンプトの自動フィルタリング
ChatGPTに対して不適切なプロンプトを与えないよう、自動的に不適切なプロンプトを検出してフィルタリングするシステムを実装することができます。
トレーニングデータの精査
ChatGPTをトレーニングする際に使用するテキストデータを精査し、不適切な言葉や表現が含まれている場合は、除外することが重要です。
セキュリティチェックの強化
ChatGPTによって生成された回答が、悪意のあるプロンプトによって攻撃を受けた場合でも、セキュリティチェックによって検出することができるようにすることが重要です。
GPT-4.icon
ChatGPTへのプロンプトインジェクションの実例をいくつかご紹介します。
個人情報の抽出: 悪意のあるユーザーが、他人の個人情報(住所、電話番号、クレジットカード番号など)を入手しようとして、ChatGPTに対してプロンプトを送信することがあります。
攻撃用コードの生成: ユーザーがChatGPTに対して、他人のコンピューターやシステムを攻撃するためのマルウェアやウイルスのコードを生成させるプロンプトを送信することがあります。
不適切なコンテンツの生成: 悪意のあるユーザーが、違法、卑猥、または不適切なコンテンツを生成させるために、ChatGPTに対してプロンプトを送信することがあります。
違法なコンテンツって何?基素.icon
プロンプトインジェクションを防止する方法としては、以下のような対策があります。
入力の検証とフィルタリング: ユーザーからの入力を受け取る前に、不正なプロンプトや危険な単語を検出し、フィルタリングすることで、インジェクションを防止できます。
AIモデルの改善: AIモデル自体を改良し、倫理的なガイドラインに従った回答や、安全な範囲内での情報提供に焦点を当てることが重要です。
ユーザーエデュケーション: ChatGPTの利用者に対して、適切な使用方法や、どのようなリクエストが許可されているかを教育することで、悪意のあるプロンプトの送信を防ぐことができます。
これらの対策を適切に実施することで、ChatGPTへのプロンプトインジェクションを防止し、AIの適正利用を促進することができます。